iT邦幫忙

2022 iThome 鐵人賽

DAY 15
0
AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列 第 15

[Day 15] NGS QIIME2 : 統計分析前樣本的取捨 - 取樣深度 (Sampling depth)

  • 分享至 

  • xImage
  •  

可以去掉條數不多的樣本嗎 ? 取樣深度 (Sampling depth)

還記得[Day 09] 提及的品質控制(Quality control)嗎?
https://ithelp.ithome.com.tw/upload/images/20220905/20151510BnR3uyTpXg.png

在範例的檔案中,可以發現六個樣本經過篩選條數如下 :
(其實就是上圖中最右邊的條數)

樣本名 篩選後條數
CRC_A 24671
CRC_B 25003
CRC_C 50131
CRC_D 19914
CRC_E 21046
CRC_F 29772
  • 可以挑掉剩餘條數不多的樣本嗎?

    例如我們可以發現 CRC_D 19914 條數略少於其他組。
    而假設今天樣本 N=100 分成四組,總有一些定序後條數明顯少於其他樣本,
    因為後續將進行物種多樣性的分析統計等,深怕影響最終結果,
    希望能將一些樣本去除,畢竟條數少可能造成偏差(bias)。

    如果你是生科相關科系學生,在做蛋白質定量法繪製標準曲線(standard curve)時,
    若做了蠻多個點,可能也會刪去幾個讓R^2結果更漂亮 (笑 :
    https://ithelp.ithome.com.tw/upload/images/20220914/20151510TYHI7jMgqH.jpg
    Reference : ZGENEBIO BIOTECH INC.
    而取樣深度 (Sampling depth) 也有異曲同工之妙,
    刪去幾個各種原因造成的低序列數樣本,讓整體結果更有說服力。

  • 取樣深度要設多少? 低於多少需要挑掉?

    這題並無標準答案,據 QIIME2 開發團隊表示 :
    分析者必須在 :
    留下最多的序列條數 (The most sequences)及
    留下最多的樣本 (The most samples) 做平衡,
    如果樣本數少、當作練習、樣本很難採集,
    且條數差距不大(可能都有幾萬條),可以考慮都留下
    若樣本數多,動輒數百,則 QIIME2 提供取樣深度網頁拖拉服務,
    提供切一刀的數字參考 :

    先將[Day 09]得到的 table-dada2-240.qza轉換為qzv

    qiime feature-table summarize \
      --i-table table-dada2-240.qza \
      --o-visualization table-dada2-240.qzv \
      --m-sample-metadata-file sample-metadata.tsv
    

    完成後會顯示 :

    '
    Saved Visualization to: table-dada2-240.qzv
    '
    

    拖曳到 QIIME2 VIEW,右側有個滑桿~
    可以依據組別進行觀察 (sample-metadata.tsv中含有 Index 一人一組與 Sex),
    深度取的越深,留下來的樣本就越少(紅色代表該樣本會被篩掉),
    table-dada2-qzv (index)

    Index 個別樣本觀察。

    table-dada2-qzv (sex)

    Sex 組別觀察,可發現深度取越深,各組所剩的樣本數會開始不平均,
    以範例來說,會發現 Male 組樣本數會下降較多,
    所以該取多少是分析人要思考的問題。

  • 在範例我們取 Sampling depth = 19914 ,也就是取最低的CRC_D 值,即全數保留。

    主因是樣本數很少(N=6)很可憐了,捨不得放棄他們,
    再者其實條數都算多,之後的稀疏分析(Alpha Rarefaction)會介紹,
    實務上,其實有上萬條都很足夠,
    但若遇到同採集條件的樣本卻只有一兩千條,就要思考要不要去除。

    如果你心中叛逆的性格被挑起了,
    範例檔案可以設 19915,(即只高最低的樣本1,使得N=5),不影響後續教學。
    備註 : 每次QC結果剩餘的條數因演算法關係,可能略有不同,
    就算同為範例檔案,也可能有個位數條數差異,
    所以在這裡深度以自己跑分析的結果為主。

怎麼辦,我有選擇困難,都有上萬條我不知道誰要留阿QQ,覺得都好重要,
都留下吧! 不然跟教授解釋200個樣本下去分析怎麼剩下150個也是蠻麻煩的
取樣深度取最低的樣本序列條數 = 全部保留
(翻找好多 QIIME2 社群問答歸納的結論XD)


本篇使用到的輸入/輸出檔案 :
Input : table-dada2-240.qza、sample-metadata.tsv
Output: table-dada2-240.qzv

拿起一張便條紙記下 Sampling depth
以及最大的序列條數 (範例是:50131) 之後會使用到~

下回是多樣性統計!


上一篇
[Day 14] NGS QIIME2 : 繪製熱圖 (Heat map)
下一篇
[Day 16] NGS QIIME2 : 分析與繪製組內物種多樣性 (Alpha diversity) (上)
系列文
16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言